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摘 要 : [目的 /意义 ] 大 数据 时 代 , 机 构 名 称 数 据 呈 现 海量 性 \ 动 态 性 、 多 样 性 等 新 特征 ,机 构 名 称 归 一 化 可 改善 大 数据 环 
境 下 科研 管理 .学科 评价 、 学 科 服 务 中 的 数据 可 靠 性 ,提升 基于 机 构 名 称 的 数据 检索 质量 和 应 用 效果 。|[ 方法 “过 
程 ] 从 语言 学 角度 和 模型 构建 层面 研究 机 构 名 称 归 一 化 ,构建 基于 共 现 关系 和 相似 度 的 机 构 名 称 归 一 化 框架 模型 ， 
提出 机 构 名 称 实体 边界 识别 方法 ,编制 机 构 多 层级 词 表 , 提 出 机 构 名 称 归 一 化 方法 ,最 后 选取 2008 -2018 年 中 文 文 
献 题 录 数据 进行 实验 。|[ 结果 /结论 ] 实验 结果 验证 了 模型 的 有 效 性 ,对 其 他 类 型 机 构 名 称 归 一 化 有 一 定 的 启发 。 
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已 仙 构 名 称 是 机 构 基本 属性 、 内 在 规律 以 及 特殊 性 
的 颖 合 反映 。 机 构 名 称 包括 规范 名 称 、 曾 用 名 、 译 名 、 
合 利 名称, 附属 独立 名 称 等 ,可 区 分 为 规范 名 称 和 变异 
名称 两 类 。 其 中 ,规范 名 称 是 指 依据 国家 标准 规范 等 
由 还 威 机 构 发 布 的 某 一 机 构 实 体 的 名 称 ; 变 异 名 称 是 
指 间 一 机 构 实体 的 多 种 名 称 表达 ,主要 有 全 称 简称 ,中 
文 兰 繁 体 名 称 .多 语言 形式 译名 著录 错误 名 称 \ 不 同 
数据 源 和 不 同时 间 段 的 名 称 等 。 机 构 名 称 归 一 化 旨 在 
将 同一 机 构 实体 名 称 的 不 同 表达 形式 集中 起 来 ,建立 
规范 名 称 与 变异 名 称 之 间 的 对 应 关系 ,通过 赋予 机 构 
一 标识 符 的 方式 达到 机 构 识 别 的 目的 趾 。 实 质 上 ， 
归 一 化 就 是 识别 机 构 实体 间 的 同一 关系 、 相 继 关 系 , 隶 
属 关系 等 。 大 数据 时 代 , 随 着 学 术 大 数据 涌现 ,机 构 更 
迭 频 繁 , 文 献 数据 著录 不 规范 ,机 构 名 称 数据 呈现 海量 
性 ,动态 性 ,多样 性 等 新 特征 ,机 构 名 称 归 一 化 可 改善 
大 数据 环境 下 科研 管理 ,学科 评价 ,学科 服务 中 数据 可 
靠 性 ,提升 基于 机 构 名 称 的 数据 检索 质量 和 应 用 效果 。 
机 构 名 称 归 一 化 是 建立 机 构 名 称 规范 档 、 规 范 库 的 核 
心 和 关键 ,是 机 构 知识 库 建设 的 重要 内 容 , 是 图 书馆 开 
展 学 科 服 务 的 基础 和 前 提 , 是 提高 检索 查询 的 查 全 率 
和 碍 准 率 的 重要 手段 。 
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就 主要 文献 数据 库 的 机 构 扩 展 检索 功能 而 言 , 多 
数 文献 数据 库 都 具有 “作者 + 作者 单位 ”的 筛选 功能 ， 
但 没有 上 下 级 隶属 关系 的 区 分 "。WOS 数据 库 和 
SCOPUS 数据 库 都 提供 机 构 扩 展 检索 功能 ,可 实现 一 
级 机 构 名 称 归 一 化 ;维普 数据 库 .CNKI 数据 库 和 万 方 
数据 库 可 提供 期 刊 论文 的 作者 机 构 字 段 ,其 中 维普 数 
据 库 标注 作者 与 机 构 的 对 应 关系 ,CNKI 数据 库 未 标注 
作者 与 机 构 的 对 应 关系 ,万 方 数据 库 利 用 XML 文档 标 
注 作 者 与 一 级 机 构 的 对 应 关系 。 以 上 数据 库 都 未 涉及 
二 级 以 下 机 构 名 称 归 一 化 。 
就 机 构 名 称 归 一 化 的 研究 方法 而 言 , 学 者 们 分 别 
提出 了 基于 规则 的 方法 和 基于 统计 的 方法 。 前 者 主要 
是 利用 机 构 名 称 结束 标识 词 触 发 的 形式 识别 命名 实体 
边界 ,总 结 组 合 规则 、 语 义 模式 和 语法 特征 ,通过 关键 
词 进行 识别 。 由 于 缺乏 各 类 型 机 构 名 称 之 间 的 语义 关 
系 定义 ,仅仅 依赖 于 名 称 形 式 上 匹配 ,会 出 现 漏 统计 、 
错误 统计 等 问题 ?1 。 后 者 主要 是 在 语料库 的 基础 上 ， 
采用 文本 特征 结合 机 器 学 习 算法 的 范式 进行 识别 。 然 
而 ,机 器 学 习 算法 都 是 黑箱 的 ,模型 对 于 结果 缺乏 可 解 
释 性 ,出 错时 难以 发 现 错误 原因 和 提出 修正 策略 六 。 

就 中 英文 机 构 名 称 著录 差异 而 言 , 中 文 机 构 名 称 
一 般 不 包含 英文 机 构 名 称 的 空格 分 隔 符 和 英文 多 层级 
机 构 名 称 间 的 逗号 分 隔 符 等 ,需要 进行 自动 分 词 和 命 
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名 实体 边界 识别 。 

本 文 从 语言 学 角度 和 模型 构建 层面 研究 机 构 名 称 
归 一 化 ,首先 对 机 构 名 称 进行 语法 .语义 特征 分 析 , 进 
而 提出 机 构 名 称 组 合 规则 ;构建 机 构 名 称 归 一 化 模型 ; 
提出 机 构 名 称 的 实体 边界 识别 方法 ;编制 机 构 多 层级 
词 表 ,提出 机 构 名 称 归 一 化 方法 ;最 后 实证 检验 模型 的 
有 效 性 。 


2 相关 研究 


国内 外 学 者 针对 机 构 名 称 规范 化 问题 ,从 机 构 识 
别 角度 提出 了 多 种 方法 和 策略 ,主要 有 以 下 几 个 方面 ， 
一 是 基于 规则 的 方法 。 沈 嘉 瓯 等 人 针对 网 络 文本 数据 
提出 了 基于 规则 的 中 文 机 构 识别 方法 ,通过 机 构 后 级 
词 央 .规则 匹配 和 贝 叶 斯 模型 识别 右边 界 和 左边 界 "。 
杨波 等 人 针对 WOS 题 录 数 据 提出 了 基于 规则 和 统计 
的 网 构 名 称 映射 算法 "9 。 二 是 基于 统计 的 方法 。 胡 万 
党 价 人 利用 百度 百科 词 条 ,提出 了 基于 词 频 统计 的 机 
构 殴 称 识别 方法 "1。 买 合 木 提 … 买 买 提 等 人 提出 了 一 
种 基于 条 件 随机 场 模型 的 维吾尔 文 机 构 名 称 识别 方 
涛 忆 。 杨 珊 仙 和 毛 一 雷 提出 了 一 种 基于 规则 与 向 量 空 
辣 棋 型 相 结合 的 科研 机 构 命 名 识别 方法 ”。 三 是 中 文 
机 国名 称 归 一 化 。 页 看 村 等 人 利用 CNKI 数据 库 构建 
了 本 构 名 称 特征 词 表 , 提 出 了 基于 TF-IDF 入 均值 聚 
类 算法 的 中 文 机 构 名 称 归 一 化 方法 中 。 杨 亦 虹 等 人 在 
甩 腺 数据 库 的 基础 上 ,采用 叙 词 表 的 知识 组 织 方式 , 构 
人 中 文 机 构 多 层级 词 表 59 。 曾 建 助 和 贾 君 枝 引 入 
SEEEina 词汇 表 构 建 了 机 构 名 称 规 范 数据 的 语义 模 
型 可。 孙 海 起 等 人 利用 中 文生 物 医学 文献 数据 库 作 为 
语料库 ,提出 了 基于 均值 聚 类 算法 的 中 文 机 构 名 称 
归 一 化 方法 "。 


3 ”机 构 名 称 归 一 化 框架 模型 与 算法 介绍 


区 别 于 基于 网 络 文本 的 机 构 命 名 实体 识别 ,针对 
中 文 文献 题 录 数 据 的 机 构 名 称 归 一 化 ,其 难点 在 于 缺 
乏 关联 数据 条 件 下 识别 机 构 实 体 间 的 同一 关系 、 相 继 
关系 和 隶属 关系 等 。 就 机 构 名 称 归 一 化 的 实现 路 径 而 
言 ,利用 人 工 编制 的 机 构 多 层级 词 表 进行 机 构 上 映射 具 
有 准确 性 优势 ,利用 字符 串 相 似 度 可 自动 聚 类 因 著 录 
错误 等 产生 的 变异 名 称 ,利用 机 构 名 称 的 层级 结构 可 
识别 上 下 级 隶属 关系 。 本 文 针 对 机 构 名 称 数据 呈现 的 
海量 性 ,动态 性 .多样 性 等 新 特征 ,采用 机 构 映 射 的 机 
构 归 一 化 策略 ,将 机 构 识 别 转换 为 精确 匹配 问题 ,提出 
一 种 基于 共 现 关系 和 相似 度 的 机 构 名 称 归 一 化 框架 模 


t= 


型 ( 见 图 1) 。 该 框架 模型 的 基本 假设 :变异 名 称 与 规 
范 名 称 之 间 仅 存在 一 对 一 或 多 对 一 的 映射 关系 ;其 基 
本 思想 :利用 机 构 名 称 的 层级 结构 和 层级 共 现 关系 实 
现 隶 属 关系 和 同一 关系 的 联合 式 机构 识 别 , 并 迭代 处 理 
整个 过 程 。 首 先 ,将 分 词 和 命名 实体 边界 识别 结合 在 一 
起 ,提出 机 构 名 称 实 体 边界 识别 方法 ,识别 隶属 关系 ;之 
后 ,基于 规则 ` 共 现 和 矩阵 和 相似 度 构建 中 文 机 构 多 层级 
词 表 , 识 别 同 一 关系 和 隶属 关系 ;最 后 ,提出 一 种 基于 精 
确 匹 配 的 机 构 和 名称 归 一 化 方法 ,实现 模型 泛 化 。 
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图 1 机 构 名 称 归 一 化 框架 模型 


3.1 机 构 名 称 数据 收集 与 预 处 理 

数据 收集 与 预 处 理 包括 选择 数据 源 、 特 殊 标点 符 
号 预 处 理 和 提取 机 构 字 段 3 个 步骤 :中 选择 数据 源 。 
中 文 机 构 名 称 数据 来 源 主 要 为 维普 数据 库 .CNKI 数据 
库 和 万 方 数据 库 。 选 择 维普 数据 库 作 为 数据 来 源 。@ 
特殊 标点 符号 预 处 理 。 由 于 机 构 著 录 不 规范 ,存在 以 
空格 和 “A”“(”“)” 等 特殊 字符 作为 机 构 边 界 标识 
符 , 预 处 理 时 需要 将 其 替换 “;”。 加 提取 机 构 字段 。 
在 维普 数据 的 机 构 字 段 中 ,左边 界 分 隔 符 一 般 为 "] ”， 
而 右边 界 分 隔 符 为 “;” ,中 间 分 隔 符 为 ,字段 包含 一 
个 或 多 个 层级 的 机 构 全 称 、 国 别 \ 城 市 .邮编 .地 址 等 。 
经 过 机 构 字 段 预 处 理 , 得 到 机 构 字 段 数 据 集 , 见 表 1。 
3.2 机构 名 称 实体 边界 识别 

机 构 名 称 的 一 般 表达 式 为 :F + M”+ S。 利 用 
NLPIR 工具 进行 分 词 标 注 和 词 频 统计 ,可 获得 机 构 结 
束 标识 词 。 以 高 校 为 例 , 机 构 名 称 组 合 规则 及 结束 标 
识 词 , 见 表 2。 

机 构 层 级 组 合 规则 的 一 般 表 达 式 为 :一 级 机 构 + 
[二 级 机 构 ] + [三 级 机 构 ] +…+[N 级 机 构 ]。 
基于 机 构 字段 数据 集 , 利 用 形 如 "select count( ID ) from 


table where organization like“% 大 学 % "and organization 
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表 1 中 文 文献 题 录 数据 机 构 字 段 的 预 处 理 结果 ( 样 例 ) 


ID 机 构 序号 作者 机 构 名 称 城市 ”邮编 国界 
VIP:673485847 1 张 一 [1] ; 丁 桂 甫 [1] ;王强 [2]; 张 从 春 ”上 海 交 通 大 学 电子 信息 与 电气 工程 学 院 微 纳 电子 ”上 海 ”200240 ”中 国 
[1] ; 程 萍 [1] 系 微 纳米 加 工 技术 重点 实验 室 
VIP:673485847 2 张 瑶 [1]; 丁 桂 甫 [1] ;王强 [2]; 张 从 春 ”上 海中 航 商用 航空 发 动机 制造 有 限 责 任 公司 上 海 ”201108 ”中 国 
[1] ; 程 萍 [1] 
表 2 高 校 机 构 名 称 组 合 规则 
机 构 等 级 首 词 F 中 间 词 M 后 级 词 S 
一 级 。 [国名 | 地 名 | 人 名 | 方位 词 | 主 ” [学科 | 行业 1 活动 内 容 | 序 数 ”[ 大 学 | 学 院 | 学 校 
管 部 门 | 专 造 名 词 ] 
级 [国名 | 地 名 | 人 名 1 方位 词 | 主 ” [学科 | 行业 1 活动 内 容 | 序 数 ” [分 校 | 学 院 | 学 校 | 中 学 | 小 学 | 系 | 中 心 | 研 究 院 1 研 究 所 | 图 书馆 1 档案 馆 1 
管 部 门 | 专 造 名 ] * 词 ] * 清 物 馆 1 部 1 处 | 办 公 室 1 委 | 会 | 有 限 公司 1 医院 ] 
三 级 [国名 | 地 名 | 人 名 | 方位 词 | 主 ”|[ 学 科 | 行 业 1 活 动 内 容 ! 序 数 ” [学 院 | 系 | 研究 院 1 研 究 所 | 实验 室 | 中 心 1 部 | 处 1 科 | 室 | 党 委 | 办 公 室 | 编 
管 部 门 | 专 造 名 ] * 词 ]* 辑 室 | 研究 室 | 监督 室 1 技 术 室 | 设计 室 | 美 术 馆 1 体育 馆 1 党 校 | 委员 会 1 基地 
科技 园 | 有 限 公司 1 国资 办 | 选 培 办 | 办 事 处 | 幼儿 园 | 医院 | 队 1 站 1 所 | 厂 ] 
[国名 | 地 名 | 人 名 | 方位 词 !| 主 [学 科 | 行业 1 活动 内 容 | 序 数 ”[ 系 | 实验 室 | 研 究 所 | 中 心 1 办 公 室 1 部 1 处 | 学 校 | 编辑 室 1 医 院 ] 
省 部 门 专 千 各 ]* 闻 ]， 


life3% 学 院 % ”and organization like“% 系 % ;的 SQL 
查询 ,统计 机 构 结束 标识 词 的 二 重 和 三 重 共 现 频次 , 生 
项 级 组 合 规则 。 以 高 校 为 例 ,机 构 层 级 组 合 规则 及 结 
识 词 为 :四 大 学 + [学 院 1 部 1 处 ] +[ 系 | 办 公 室 ] + 
人 室 1 研 究 院 1 设计 院 1 研 究 所 | 中 心 1 基地 ]; @ 大 学 
于 学 院 | 部 | 处 ] +[ 系 1 办 公 室 ]; @@ 大 学 + [学 院 | 部 | 
ES @ 大 学 + [ 系 | 办 公 室 ]; @ 大 学 + [学 院 ! 部 | 处 ] 
从 实验 室 | 研究 院 | 设计 院 1 研 究 所 | 中 心 | 基地 ]; @ 大 
学 3[ 系 | 办 公 室 ] +[ 实 验 室 1 研 究 院 | 设计 院 | 研究 所 | 
中 区 | 基地] ; @ 大 学 + [实验 室 1 研究 院 1 设计 院 1 研 究 
所 同心 | 基地 ] ; @[ 学 院 1 学校 ] +[ 系 | 办 公 室 ] + [ 实 
验 零 | 研究 院 1 设计 院 1 研究 所 | 中 心 | 基 地 ] ; @[ 学 院 ! 学 
检 了 [ 系 ! 办 公 室 ]; 加 [学 院 | 学 校 ] + [实验 室 1 研究 院 
1 设计 院 1 研究 所 1 中 心 1 基 地 ] ; 加 学 院 + [学 院 | 实验 
室 1 研 究 院 ] 。 

本 文 将 分 词 和 命名 实体 边界 识别 结合 在 一 起 , 提 
出 一 种 机 构 名 称 实体 边界 识别 算法 。 输 入 :机 构 字 段 
数据 集 和 机 构 层级 组 合 规则 。 输 出 :机 构 名 称 数据 集 。 
流程 如 下 : 

步骤 1; 一 级 机 构 识别 

采用 基于 等 值 匹配 的 分 块 算法 221 ,将 实体 属性 中 
的 机 构 名 称 、 国 别 `. 地 址 、 城 市 .邮编 定义 为 五 个 分 块 
键 , 构 造 数 据 记 录 过 滤 条 件 ,对 机 构 字 段 数据 集 进行 分 
组 ,实现 一 级 机 构 的 识别 。 

步骤 2 :词性 标注 

利用 NLPIR 工具 ,选择 中 科 院 二 级 标注 集 作为 词 
性 标注 集 。 经 词性 标注 后 的 结果 ,如 * 上海 /ns 交通 /n 
大 学 /n 电子 /n 信息 /n 与 /ce 电气 /n 工程 /n 学 院 /n 


自动 化 /vd 系 /v 系统 jn 控制 /vn 与 /cc 信息 /An 处 理 /v 
教育 部 /nt 重点 和 实验 室 /n”。 

步骤 3 :确定 机 构 后 绥 词 

依据 词性 标注 结果 ,查找 机 构 字段 中 的 所 有 机 构 
后 级 词 。 词 性 标注 结果 “ 系 /v” 和 “系统 An”, 判 定 “ 系 / 
v” 为 机构 原子 后 级 词 ;“ 系统 An” 为 定语 修饰 词 。 最 终 
找到 “大 学 “学院”"“ 系 “实验 室 ”4 个 机 构 后 级 词 和 
“系统 "1 个 定语 修饰 词 。 

步骤 4: 确 定 机 构 全 称 右边 界 

匹配 机 构 层 级 组 合 规则 ,并 以 “#” 作 为 分 隔 符 标 
识 各 级 机 构 名 称 右边 界 。 上 例 经 右边 界 标识 后 的 结果 
为 : “上海 交 通 大 学 # 电 子 信 息 与 电气 工程 学 院 # 自 动 化 
系 # 系 统 控 制 与 信息 处 理 教育 部 重点 实验 室 #”。 
3.3 ”中文 机 构 多 层级 词 表 编制 

中 文 机 构 多 层级 词 表 编制 的 基本 步骤 如 下 : 

(1) 人工 收集 规范 名 称 ,制作 机 构 规 范 名 称 基础 词 
表 。 依 据 一 级 机 构 主 页 的 院 系 设置 .机构 设置 ,历史 沿 
革 等 栏目 ,人 工整 理 一 级 机 构 和 二 级 以 下 机 构 的 规范 名 
称 ,制作 机 构 规 范 名 称 基础 词 表 。 也 可 利用 百度 百科 、 
机 构成 立新 闻 报道 ,机 构 代 码 表 等 提供 的 机 构 信 息 。 

(2) 识 别 隶 属 关 系 , 生 成 待 归并 的 中 文 机 构 多 层 
级 词 表 。 提 出 基于 共 现 关系 与 等 值 匹配 的 分 块 算法 。 
依据 机 构 层 级 组 合 规则 ,计算 二 重 、 三 重 共 现 频次 , 通 
过 设置 共 现 频次 阔 值 ,提取 机 构 实 体 间 的 共 现 关系 , 确 
定 一 级 机 构 - 二 级 机 构 - 三 级 机 构 的 隶属 关系 。 生 成 
未 识别 同一 关系 的 中 文 机 构 多 层级 词 表 。 

(3) 识 别 同一 关系 ,生成 未 编码 的 中 文 机 构 多 层 
级 词 表 。 利 用 基于 编辑 距离 的 相似 度 算法 ,识别 同一 
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关系 ,归并 文本 相似 的 名 称 ,生成 未 编码 的 中 文 机 构 多 
层级 词 表 。 可 将 基础 词 表 作 为 种 子 加 入 聚 类 ,提高 聚 
类 的 效率 和 质量 。 
(4) 识别 相继 关系 。 对 于 一 级 机 构 ,进行 人 工整 
理 ,确定 其 相继 关系 。 主 要 依据 是 教育 部 发 布 的 更 名 
文件 和 一 级 机 构 主页 ,机构 成立 新闻 报道 .百科 词 条 
等 。 对 于 二 级 机 构 , 在 隶属 关系 和 同一 关系 识别 的 基 
础 上 ,考虑 期 刊 发 表 周期 等 ,以 最 终 出 现年 份 差距 大 于 
2 作为 时 序 划分 标准 ,以 两 个 二 级 机 构 隶 属 的 三 级 机 
构 个 数 大 于 3 或 重合 度 超过 60% 作为 相似 性 标准 , 按 
照 以 上 两 个 标准 确定 其 相继 关系 。 主 要 依据 是 基于 以 
下 观察 :车 一 个 学 院 更 名 ,而 其 下 属 的 所 有 系 、 所 ,实验 
室 并 非 都 更 名 ,依据 不 更 名 的 系 、 所 ,实验 室 , 则 可 识别 
tii 奖 本 不 相似 的 且 具 有 相继 关系 的 两 个 机 构 。 由 于 三 
级 而 构 在 文献 题 录 数据 中 出 现 频次 较 低 , 且 需 结合 作 
孝 依 息 等 加 以 判断 ,本 文 将 三 级 机 构 的 相继 关系 作为 
后 了 关系 进行 处 理 。 
加 (5) 赋 予 机 构 的 唯一 标识 符 ,生成 中 文 机构 多 层 
级 河 表 。 采 用 编码 的 方式 ,编制 基于 唯一 标识 符 的 中 
X 现 构 多 层级 词 表 。 
CJ 中 文 机 构 多 层级 词 表 编制 具有 以 下 意义 :中 词 表 
ER 献 题 录 数据 与 机 构 名 称 规范 数据 之 间 的 映射 , 记 
状 咏 成 是 基于 共 现 矩阵 进行 去 重合 并 操作 的 数据 清 
人 


A lj: 广 机 构 多 层级 词 表 ， 通过 精确 匹配， 识 另 | 海量 
数据 中 的 机 构 名 称 ， 实现 机 构 名 称 的 归 一 化 。 
3.3.1 基于 共 现 关系 与 等 值 匹配 的 分 块 算法 

本 文 借鉴 关联 数据 的 思路 ,提出 一 种 基于 共 现 关 
系 与 等 值 匹配 的 分 块 算法 。 输 入 :机 构 名 称 数据 集 。 
输出 :机构 名 称 数据 分 块 结果 。 流 程 如 下 : 

步骤 1 :建立 共 现 矩阵 

在 机 构 名 称 实体 边界 识别 的 基础 上 ,建立 各 层级 
机 构 的 二 维 共 现 矩阵 (大 学 一 一 学 院 ) 和 三 维 共 现 矩 
阵 ( 大 学 一 一 学 院 一 一 系 、 所 实验 室 )。 

步骤 2: 设 置 共 现 频次 国 值 
通过 设置 共 现 频次 阐 值 ,提取 机 构 实 体 间 的 共 现 
关系 。 利 用 共 现 矩阵 同时 提取 机 构 实体 的 隶属 关系 和 
共 现 关系 ,通过 隶属 关系 揭示 机 构 实体 间 的 语义 关系 ， 
解决 传统 的 基于 规则 的 方法 缺乏 各 类 型 机 构 名 称 之 间 
的 语义 关系 定义 的 问题 ,弥补 仅仅 依赖 于 名 称 形式 上 


匹配 的 方法 缺陷 。 

步骤 3 :分 块 键 定 义 

采用 各 层级 机 构 ( 大 学 、 学 院 、 系 ) 作 为 实体 属性 ， 
定义 一 个 或 多 个 分 块 键 ,基于 机 构 名 称 数据 在 分 块 键 
上 的 键 值 , 将 其 对 应 到 不 同 的 数据 块 , 提 高 匹配 效率 。 
3.3.2 基于 编辑 距离 的 相似 度 算法 

在 数据 分 块 基础 上 ,将 作者 机 构 字段 排序 ,采用 滑 
动 窗口 方法 ,引入 字符 串 编 辑 距离 算法 测度 机 构 名 称 
相似 度 ,滑动 窗口 宽度 设 为 30, 步 长 设 为 1。 机 构 名 称 
相似 度 测度 采用 Jaro-Winkler 算法 计算 。 该 算法 是 计 
算 两 个 短 字 符 串 之 间 相 似 度 的 一 种 距离 测度 算法 。 

Jaro 距离 算法 "为 : 


ro sha 人 oe | | 

公式 (1) 
其 中 ,1sir, 1 和 1str, | 为 字符 串 长 度 ;c 为 两 个 字符 
串 的 公共 字符 数 , 公 共 字 符 需 满足 sr [i =str,[ 站 和 1i 
-sminllsm llsm1l 31 为 变换 数 ,比较 两 个 字符 
串 的 第 i 个 公共 字符 ,不 匹配 则 为 一 次 变换 。 

Jaro-Winkler 距离 算法 中 为: 

d,=d;+ Llp(1 -4d,)] 公 臣 (23 

其 中 ,d 为 两 个 字符 串 的 Jaro 距离 ;! 为 前 级 相同 
字符 个 数 ,规定 其 最 大 值 为 4;p 是 常数 ,规定 最 大 为 
0.25 ,Winkler 将 其 设 为 0.1。 
3.3.3 基于 唯一 标识 符 的 多 层级 词 表 编制 

一 级 机 构 唯 一 标识 符 包括 国家 组 织 机 构 统 一 社会 
信用 代码 ,全 国 普通 高 等 学 校 名 单 中 的 机 构 代码 等 ;二 
级 以 下 机 构 唯 一 标识 符 包 括 内 部 机 构 代 码 、 数 据 库 机 
构 字 段 编码 等 。 另 外 ,一 级 机 构 的 电子 邮件 、 二 级 以 下 
机 构 的 电子 邮件 .邮编 .地 址 、 机 构 URL 等 具有 唯一 性 
且 与 机 构 实 体 具 有 了 映射 关系 的 字符 串 可 看 作 机 构 唯 一 
标识 符 。 本 文 以 全 国 普通 高 等 学 校 名 单 中 的 机 构 代 码 
作为 一 级 机 构 代 码 , 以 五 位 数字 串 编 码 二 级 以 下 机 构 
代码 ,以 补充 编码 作为 高 校 与 校外 机 构 共 建 的 且 不 隶 
属于 其 他 校内 二 级 机 构 的 协同 创新 中 心 .研究 院 、 研 究 
所 \ 研 究 中 心 基地、 实验 室 等 的 机 构 代 码 , 并 以 “UC:” 
“SC: ”0C: "分别 表示 一 级 机 构 代 码 、 二 级 以 下 机 构 
代码 、 补 充 编码 。 

中 文 机 构 多 层级 词 表 示例 见 表 3。 从 表 3 可 见 , 南 
洋 公 学 和 上 海 交 通 大 学 是 相继 关系 ;微米 /纳米 加 工 技 
术 国防 科技 重点 实验 室 和 电子 信息 与 电气 工程 学 院 是 
隶属 关系 ; 微 纳 电子 系 和 微 纳 电子 学 系 是 同一 关系 。 


98 


ChinaXiv 合 作 期 干 


L 一 


杨 照 , 任 娟 . 中 文 文献 题 录 数据 机 构 名 称 归 一 化 研究 [可 . 图 书 情报 工作 ,2020 ,64(4) :95 - 102. 


表 3 中文 机 构 多 层级 词 表示 例 


序号 变异 名 称 机 构 代码 岗 范 名 称 父 代码 ”机 构 级 别 成 立时 间 撤销 时 间 关系 类 型 
1 南洋 公 学 UC:10248 上 海 交通 大 学 1 1896 1904 ”相继 关系 
2 ”电子 信息 和 电气 工程 学 院 SC:03000 ”电子 信息 与 电气 工程 学 院 UC:10248 2 2001 同一 关系 
3 微 纳米 加 工 技术 重点 实验 SC:34100 ”微米 /纳米 加 工 技术 国防 科技 重点 。 SC:03000 3 1996 同一 关系 
4 微米 /纳米 加 工 国家 级 重点 实验 室 SC:34100 ”微米 /纳米 加 工 技 术 国 防 科 技 重点 。 SC:03000 3 1996 同一 关系 
5 微 纳 电子 系 SC:03900 ”” 微 纳 电子 学 系 SC:03000 3 2014 同一 关系 
6 薄膜 与 微细 加 工 技术 教育 部 重点 SC:34200 薄膜 与 微细 技术 教育 部 重点 实验 SC:03900 4 1993 同一 关系 

实验 室 室 
7 生物 芯片 上 海 国 家 工程 研究 中 心 OC :00001 生物 芯片 上 海 国 家 工程 研究 中 心 UC:10248 2 2003 同一 关系 


3.4 机 构 名 称 归 一 
为 了 实现 模型 泛 化 ,提出 一 种 基于 精确 匹配 的 机 
构 名 称 归 一 化 算法 。 输 入 :机 构 名 称 数据 集 、 机 构 多 层 
级 洞 表 。 输 出 :机 构 名 称 归 一 化 结果 。 流 程 如 下 : 
后 步 瑟 1: 加 载 中 文 机 构 多 层级 词 表 , 当 实体 边界 识 
别 局 的 机 构 数据 与 中 文 机 构 多 层级 词 表 精 确 匹配 时 ， 
标 滋 其 机 构 代码 。 
< 步骤 2: 当 不 能 精确 匹配 时 ,对 实体 边界 识别 后 的 
机 构 数 据 和 中 文 机 构 多 层级 词 表 的 机 构 名 称 都 进行 分 
育 浆 注 ,去 掉 所 有 标点 符号 后 ,再 次 进行 精确 匹配 ,成 
功 哆 配 后 标注 其 机 构 代码 。 
ON 当 不 能 精确 匹配 时 ,如 机 构 名 称 “ 船 舶 海洋 与 建 
筑 至 程 学 院 "的 分 词 标注 结果 为 “船舶 in /wn 海洋 
壤 色 建筑 /wn 工程 /n 学 院 /n” ,去掉 符 号 后 ,变异 名 
e000 0 
确 到 配 成 功 。 


4 实验 及 结果 分 析 


4.1 数据 收集 与 预 处 理 

为 验证 模型 的 有 效 性 ,选用 维普 数据 库 作为 数据 
源 ,以 上 海 交 通 大 学 作为 大 学 命名 机 构 进 行 检索 ,采用 
检索 式 检索 方式 ,检索 式 为 “S = (上 海 交 通 大 学 OR 上 
海 交 大 OR 15 个 附属 医院 )”, 时 间 跨 度 2008 - 2018 
年 。 共 检索 出 的 文献 数量 为 145 538 篇 ,检索 日 期 为 
2019 年 3 月 21 日 。 经 数据 预 处 理 后 获得 233 998 条 机 
构 名 称 数据 ,以 上 海 交 通 大 学 作为 第 一 机 构 发 表 期 刊 
论文 共计 121 065 篇 。 

为 了 评估 模型 在 不 同类 型 机 构 的 适用 性 ,以 大 学 
命名 和 学 院 命名 两 种 类 型 的 样本 检验 研究 方法 的 有 效 
性 ,进一步 采用 以 常熟 理工 学 院 作 为 学 院 命 名 机 构 进 
行 检索 , 共 检 索 出 其 2008 -2018 年 的 文献 数量 为 8 292 
篇 。 


4.2 机构 名 称 实体 边界 识别 

利用 NLPIR 工具 进行 分 词 标注 ,依据 机 构 层 级 组 
合 规则 ,对 机 构 名 称 进行 实体 边界 识别 。 上 海 交 通 大 
学 名 称 实体 边界 识别 部 分 结果 ,如 表 4 所 示 : 

表 4 上 海 交 通 大 学 名 称 实体 边界 识别 部 分 结果 


ID 机 构 序 号 机 构 名 称 

VIP:34474797 3 # 上 海 交 通 大 学 # 第 六 人 民 医 院 # 肾 内 科 # 

VIP:34474797 10 ”# 上 海 交 通 大 学 # 医 学 院 # 新 华 医院 # 肾 内 科 # 

VIP:34474797 11 # 上 海 交通 大 学 # 医 学 院 # 第 九 人 民 医 院 # 肾 内 
各 |# 

VIP:34532452 1 # 上 海 交通 大 学 # 船 舶 海洋 与 建筑 工程 学 院 # 
程 力学 系 # 

VIP:34542347 1 # 上 海 交通 大 学 # 电 子 信息 与 电气 工程 学 院 # 

VIP:34693216 1 # 上 海 交 通 大 学 # 医 学 院 # 瑞 金 医 院 # 内 分 泌 代 
谢 病 科 # 上 海 市 内 分 泌 代谢 病 临床 医学 中 心 # 

VIP:35228023 1 # 上 海 交 通 大 学 # 国 际 与 公共 事务 学 院 # 


4.3 ”中文 机 构 多 层级 词 表 编 制 
4.3.1 基于 共 现 矩 阵 与 等 值 匹配 的 分 块 算法 
利用 多 层级 机 构 的 三 维 共 现 矩阵 ,计算 一 级 机 构 、 
二 级 机 构 和 三 级 机 构 的 共 现 频次 。 以 船舶 海洋 与 建筑 
工程 学 院 为 例 , 可 设置 共 现 频次 阐 值 为 3, 多 层级 机 构 
共 现 关系 部 分 计算 结果 见 表 5。 利 用 等 值 匹配 的 分 块 
算法 进行 数据 分 块 , 将 二 级 机 构 作 为 分 块 键 时 ,在 键 值 
为 “船舶 海洋 与 建筑 工程 学 院 " 的 数据 分 块 中 ,可 通过 
相似 度 计算 等 发 现 同一 机 构 实体 的 多 种 变异 名 称 , 如 
“土木 工程 系 ”“ 土 木 系 "” “建筑 学 系 "” “建筑 系 " 等 ;将 
三 级 机 构 作 为 分 块 键 时 ,在 键 值 为 “工程 力学 系 ” 的 数 
据 分 块 中 ,可 发 现 同一 机 构 实体 的 简称 和 全 称 等 多 种 
变异 名 称 , 如 “ 船 建 学 院 ”“ 船 舶 海洋 与 建筑 工程 学 


9) 


基于 编辑 距离 的 相似 度 算法 
在 数据 分 块 基础 上 ,采用 滑动 窗口 方法 ,滑动 窗口 
度 设 为 30, 步 长 设 为 1。 利 用 Levenshtein 距离 Jaro 
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表 5 多 层级 机 构 共 现 关 系 计 算 结 果 ( 部 分 ) 


一 级 机 构 二 级 机 构 三 级 机 构 频次 

上 海 交通 大 学 有 8 建 学 院 土木 工程 系 5 

上 海 交通 大 学 外 建 学 院 安全 与 防 灾 工 程 研究 所 29 

上 海 交 通 大 学 外 建 学 院 工程 力学 系 3 

上 海 交通 大 学 8 舶 海洋 与 建筑 工程 学 院 海洋 工程 国家 重点 实验 室 6l 

上 海 交通 大 学 8 前 海洋 与 建筑 工程 学 院 交通 研究 中 心 7 

上 海 交通 大 学 8 舶 海洋 与 建筑 工程 学 院 交通 运输 与 航运 系 3 

上 海 交通 大 学 上 前 海洋 与 建筑 工程 学 院 土木 工程 系 40 

上 海 交通 大 学 时 前 海洋 与 建筑 工程 学 院 土木 系 4 

上 海 交通 大 学 明海 洋 与 建筑 工程 学 院 安全 与 防 灾 工 程 研究 所 4 

上 海 交通 大 学 上 前 海洋 与 建筑 工程 学 院 工程 力学 系 39 

上 海 交通 大 学 明海 洋 与 建筑 工程 学 院 工程 管理 研究 所 3 

上 海 交通 大 学 68 舱 海洋 与 建筑 工程 学 院 建筑 学 系 1 

上 海 交 通 大 学 68 舱 海 洋 与 建筑 工程 学 院 建筑 系 9 
五 海 交通 大 学 68 舱 海 洋 与 建筑 工程 学 院 水 下 工程 研究 所 3 
Ee 68 舱 海 洋 与 建筑 工程 学 院 水 声 工程 研究 所 4 
人 有 上 海 交 通 大 学 外 骨 海洋 与 建筑 工程 学 院 海洋 岩 土 工程 研究 中 心 3 
CAL 海 交通 大 学 由 骨 海 洋 与 建筑 工程 学 院 高 新 船舶 与 深海 开发 装备 协同 创新 中 心 11 

蹈 确 Jaro-Winkler 距离 分 别 测度 字符 串 相似 度 ,设置 | 制 的 高 校 机 构 名 称 多 层级 词 表 共有 3 528 个 机 构 名 


相似 度 闵 值 ,完成 机 构 名 称 归并 。 当前 级 字符 个 数 大 

于 1 时 ,Jaro-Winkler 距离 在 Jaro 距离 的 基础 上 进 
行 调整 ,刻画 前 级 相同 部 分 的 字符 串 相 似 度 。 基 于 编 
辑 距 离 的 字符 串 相 似 度 计算 结果 ( 见 表 6)。 将 Jaro- 
Wankler 距离 阐 值 设 为 0.75 时 ,可 获取 相似 度 较 高 的 
ee 最 终 , 编 


称 , 其 中 ,变异 名 称 2 834 个 ,规范 名 称 694 个 。 二 级 机 
构 规范 名 称 160 个 ,包括 学 校 与 其 他 机 构 的 共 建 平台 
66 个 ;三 级 机 构 规范 名 称 478 个 ;四 级 机 构 规范 名 称 
56 个 ,四 级 机 构 主 要 为 研究 所 和 系 ( 如 安泰 经 济 与 管 
理学 院 经 济 学 院 经 济 系 ) 。 


表 6 基于 编辑 距离 的 字符 串 相似 度 计算 结果 


CS 序号 字符 串 1 字符 串 2 Levenshtein 距离 Jaro 距离 Jaro-Winkler 距离 
本 一 一 和 | 土木 系 士 木 工程 系 2 0.689 0.751 
O 2 建筑 学 系 建筑 系 1 0.917 0.933 
3 工程 力学 系 工程 管理 研究 所 5 0.562 0. 650 
4 港口 海岸 及 近海 工程 系 港口 与 海岸 工程 系 4 0. 837 0.902 
5 海洋 工程 国家 重点 试验 室 国家 海洋 工程 重点 实验 室 5 0. 839 0. 839 
6 国际 航运 系 建筑 学 系 4 0.483 0.483 


4.4 机 构 名 称 归 一 

通过 在 上 海 交通 大 学 233 998 条 数据 中 随机 抽取 
1 000 条 机 构 归 一 化 结果 数据 ,进行 人 工 验 证 ,最 终 得 
到 机 构 名 称 归 一 化 实验 结果 ( 见 表 7)。 经 人 工 验 证 ， 
机 构 名 称 实体 边界 识别 错误 8 个 ,其 中 ， 中 心 # 医 院 #” 
和 ”医学 院 # 医 院 #" 等 , 因 未 进行 相 邻 机 构 标 识 词 合并 
处 理 而 导致 识别 错误 。 上 海 交 通 大 学 一 级 机 构 未 被 识 
别 的 数据 有 5 条 ,一 级 机 构 识别 错误 1 个 。 上 海 交 通 
大 学 二 级 机 构 识 别 错误 2 个 ,分 别 因为 实体 边界 识别 
错误 和 机 构 多 层级 词 表 错 误 。 实 验 结果 表明 ,机 构 名 
称 实体 边界 识别 准确 率 为 99.2% ; 上海 交通 大 学 一 级 


机 构 识 别 准确 率 为 99.9% , 召回 率 为 99.3% ,F 测度 
为 99.6% ;二 级 机 构 识 别 准 确 率 为 99.7% ,召回 率 为 
95.5% ,F 测度 为 97.6% 。 在 二 级 机 构 未 被 识别 的 
31 条 数据 中 ,6 条 数据 因 其 变异 名 称 未 列 人 机 构 多 层 
级 词 表 而 导致 未 被 识别 ,如 “上 第 九 人 民 医 院 ” 和 “ 江 
苏 省 苏州 市 九龙 医院 ”;5 条 数据 因 一 级 机 构 未 被 识 
别 而 导致 二 级 机 构 未 被 识别 ;其 余 20 条 数据 仅 署名 
上 海 交通 大 学 缺失 二 级 以 下 机 构 相 关 信 息 , 由 于 仅 
利用 题 录 数 据 中 作者 机 构 字 段 ,因而 无 法 对 这 部 分 
数据 进行 二 级 机 构 识 别 ,需要 借助 作者 信息 等 进行 


识别 。 


100 


杨 昭 , 任 娟 . 中 文 文献 题 录 数 据 机 构 名 称 归 一 化 研究 [可 . 图 书 


ChinaXiv 合 作 期 刊 


情报 工作 ,2020 ,64(4) :95 - 102. 


通过 在 常熟 理工 学 院 11 569 条 数据 中 随机 抽取 
1 000 条 机 构 归 一 化 结果 数据 ,进行 人 工 验 证 ,实验 结 
果 表 明 , 一 级 机 构 识 别 准确 率 为 100% ,召回 率 为 
100% ,了 测度 为 100%; 二 级 机 构 识别 准确 率 为 
99.8% ,召回 率 为 80.5% ,F 测度 为 89.1% 。 在 二 级 机 
构 未 被 识别 的 148 条 数据 中 ,全 部 为 仅 署名 常熟 理工 


表 7 机构 名 称 归 一 化 实验 结果 统计 


， 机 构 名 称 ”机构 层 级 ge a Pedi 
大 学 “上 海 交通 大 学 “一 级 机 构 。。 689 1 
大 学 ”上海 交通 大 学 “二 级 机 构 662 2 
学 院 常熟 理工 学 院 一 级 机 构 。” 761 0 0 
学 院 ” 常 熟 理工 学 院 ”二 级 机 构 612 l 1 
一 


SG 〇 结论 

CD 中 
CO 大 数据 时 代 , 学 术 大 数据 的 新 特征 召唤 机 构 识别 
模式 创新 ,从 语言 学 视角 审视 机 构 识别 ,从 同一 关系 、 
相 瑟 关系 和 隶属 关系 三 大 识别 维度 出 发 ,综合 考虑 模 
型 的 答 入 .过程 和 输出 三 个 层面 ,将 基于 规则 、 统 计 的 
沽 识别 和 人 工 验证 两 种 方式 相 结合 ,以 改善 大 数据 
湛 下 科研 管理 ,学科 评价 ,学科 服务 中 的 数据 可 靠 性 
问题 为 导向 ,构建 数据 驱动 的 机 构 名 称 归 一 化 模型 , 重 
构 甘 统 的 基于 数据 清洗 平台 的 自动 指派 + 人 工 指派 两 
除 狠 模型 ,是 新 时 代 推进 机 构 识别 的 科学 策略 。 

四 所 榴 建 的 机 构 名 称 归 一 化 模型 主要 从 输入 数据 、 
归 三 化 过 程 和 机 构 词 表 编 制 上 进行 了 探索 ,具体 体现 
得 苛 下 几 个 方面 

一 是 输入 数据 的 质量 控制 。 所 构建 的 模型 以 作者 
机 构 字段 为 唯一 数据 来 源 ,辅助 规则 和 具有 权威 性 和 
准确 性 的 机 构 代码 表 等 知识 ,保障 了 模型 输入 端的 数 
据 可 靠 性 ,避免 了 参考 作者 .邮编 “等 信息 时 因 作者 歧 
义 .邮编 不 规范 等 造成 的 数据 污染 。 

二 是 白 箱 模型 。 所 构建 的 模型 采用 精确 匹配 法 识 
别 机 构 , 克 服 了 机 器 学 习 算 法 的 黑箱 局 限 和 难以 进行 
修正 的 不 足 。 精 确 匹 配 法 的 核心 和 基础 是 编制 的 中 文 
机 构 多 层级 词 表 , 而 词 表 制 作 是 自动 识别 和 人 工 验证 
相 结合 ,在 一 个 数据 集中 变异 名 称 数量 是 有 限 的 且 能 
够 全 部 被 人 工 验证 ,如 此 产生 的 词 表 代表 着 学 科 馆 员 
等 的 识别 水 平 , 并 保证 词 表 的 准确 性 。 尤 其 是 人 工 验 
证 或 实际 应 用 中 发 现 识别 错误 样本 时 ,可 通过 修改 词 
表 高 效 地 完成 批量 纠 错 。 

三 是 基于 实体 关系 识别 的 机 构 多 层级 词 表 编 第 


i 
O 


提出 基于 共 现 关系 与 等 值 匹配 的 分 块 算法 ,采用 基于 

编辑 距离 的 相似 度 算法 ,自动 识别 机 构 实 体 间 的 隶属 

关系 和 同一 关系 ,减少 了 机 构 多 层级 词 表 制 作 的 人 工 

成 本 ,也 避免 了 基于 关键 词 词 频 统计 的 方法 存在 的 多 

层级 机 构 间 的 相互 干扰 的 不 足 。 针 对 机 构 实体 间 的 相 

继 关 系 等 的 识别 和 更 新 ,可 进行 机 构 多 层级 词 表 的 稼 

态 加 工 维护 ,并 依据 机 构 变 革 的 报道 信息 、 定 期 发 布 的 

内 部 机 构 代 码 表 文献 题 录 数 据 提 取 等 多 种 途径 进行 

及 时 更 新 ,降低 了 仅 基 于 文献 题 录 数 据 提取 机 构 相 继 

关系 的 时 间 潍 后 影响 。 
实证 结果 表明 ,机构 名 称 归 一 化 模型 可 实现 大 学 

命名 和 学 院 命名 两 种 类 型 机 构 名 称 实体 边界 识别 和 二 

级 机 构 识 别 , 从 而 验证 了 模型 的 有 效 性 ,对 其 他 类 型 机 

构 名 称 归 一 化 有 一 定 的 启发 意义 。 同 时 ,一 些 问题 有 

待 进一步 解决 ,如 将 模型 输出 设 为 文献 归属 到 三 级 以 

下 机 构 时 的 实证 验证 ,相继 关系 的 自动 识别 ,在 其 他 文 

献 题 录 数据 集 上 验证 模型 的 有 效 性 等 。 
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Research on Institution Name Normalization Based on Chinese Bibliographic Data 
Yang Zhao Ren Juan …” 
' Shanghai Jiao Tong University Library, Shanghai 200240 
“Shanghai Publishing and Printing College, Shanghai 200093 
’ Shanghai Research Institute of Publishing and Media, Shanghai 200093 

Absiract: | Purpose/ significance | In the era of big data, institution name data presents new features such as 

mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific re- 

Sih management, subject evaluation and subject service under big data environment, and improve the quality and 

lication effect of data retrieval based on institution name. | Method/process| From the perspective of linguistics 

Gand model construction, this paper studied name normalization. This paper constructs a Framework Model for Nor- 

Gndlization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of i- 

entifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized 

Csthod of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment. | Result/ 

Qnclusion | Experiments verify the validity of the model, which has some enlightening significance for the normaliza- 
of the names of other types of institutions. 
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